科研星球

2022 ESMO特别篇 | 真实世界数据(RWD)的利与弊

RWD有怎样的优势和局限性?2022 ESMO年会期间,来自英国癌症研究所临床试验及统计学组的Judith Bliss教授分享了她的观点。


众所周知,随机对照试验(RCT)在医学研究中具有极高的地位,循证医学也十分重视高质量RCT的结果。近些年,真实世界数据(real-world data,RWD)成为热点,其作为RCT的重要补充,或可成为解决一系列重要研究问题的关键。RWD有怎样的优势和局限性?2022 ESMO年会期间,来自英国癌症研究所临床试验及统计学组的Judith Bliss教授分享了她的观点。


0 (1).png


让我们从Ronald Fisher(注:英国统计学家和遗传学家)的一句话开始:在试验结束后咨询统计学家,通常是让他进行“尸体解剖”(post mortem),或许能告诉你试验是怎么“死”的——这是一个很好的总结,我们分析过去,是为了未来更好的合作。


0.png

当你要思考真实世界数据(RWD),并评估RWD在未来的适用性时,首先要回答这样一个问题:为何要做随机对照试验(RCT)?——为了对治疗效果进行无偏倚(unbiased)评估:系统误差最小化,探索最合理的效应量,前瞻性的收集数据,按照计划给与患者治疗等。当进行RWD分析时,会有很多非常复杂的模型,但我们仍旧只能平衡已知的因素,而不能平衡未知的因素。

RWD分析能取代RCT或单臂试验吗?不会!RWD研究能否对RCT或单臂试验进行补充完善吗?当然可以!RWD研究是一种新的研究方法吗?不是,病例对照研究(case-control)、队列研究(cohort studies)等都属于RWD研究。但是,由于计算机技术的显著进步,RWD研究将会对临床实践产生不同于以往的影响。

继续接下来的内容前,需要记住这样一个词:“历史对照”(historical controls),过去常把它看作一种负面含义,这显然存在对它的认识不足。还有这样一种观点,RCT非常具有局限性,由于高度选择性的试验人群、严格控制的试验条件、高成本、伦理考量等。RCT在收集数据时,需要依据国际人用药品注册技术协调会-临床试验管理规范(ICH-GCP)来明确在特定的时间内发生了特定的不良事件。从另一个角度看,我们非常乐于接受监管者视角,不良事件的记录都是真实的。或许我们可以折中一下,讨论一下不需要高水平监管的、真正实用的临床试验。监管者们会说,我们扮演了协同的角色。但我认为,我们提出的真正的问题,并不是如何在临床试验期间人为的创造一种环境。RCT的一个重要特征是提供同期对照,这个并没有什么争议。

我们应该如何使用RWD?1、在RCT之后更好的明确治疗有效性(例如:既往未观察到的亚组);2、无“传统”RCT可参考的情况下,进行治疗有效性的评估;3、评估复杂任务的可靠性和应用性(例如:分子诊断);4、为了更好的明确治疗的安全性和延迟的有效性;5、可提供合成对照(synthetic control)(例如:digital twin);6、评估实践的迭代性变化影响(例如:rapid learning,快速学习);7、根据预后描述患者人群特征等。

研究者可以收集大量的病例并观察他们的预后。例如,使用法国流行病学策略与医学经济学(ESME)转移性乳腺癌(MBC)数据库,纳入2008年~2016年开始治疗的MBC患者,样本量超过2万名,观察中枢神经系统(CNS)转移对预后的影响,着眼于长期的结果。我认为像这样的研究,毫无疑问在此领域中的作用是非常有价值的。

RCT位于证据等级金字塔的上端,但我们谈论的RWD只是一种对照性研究和观察性研究,它也存在固有的局限性(偏倚)。评估RWD研究,使用RWD来进行决策,可以把它想象成一个圆,把三个问题连接在一起:研究问题(研究问题和提出的问题是否匹配?),研究设计(设计方法是否合理?),数据(数据是否可靠?是否具有相关性?是否完整?)。目的是在非随机化治疗分配、非试验计划预期的数据结果中,使偏倚最小化。

0 (3).png

再次回到随机化试验,提出假设,设计试验。但是在RWD分析工作中,可能不是这样的,甚至需要把PICO框架(P:population,人群;I:intervention,干预;C:control,对照;O:outcome,结果)先放在一边,那么如何系统地把这些数据变成一个迭代化的进程?你会有自己的想法,你看着这些数据,试着将这些数据间的关系概念化,然后制定假设,当你最终真正确认研究问题前,可能会在数据无法解答问题的困扰中反复打转,和RCT相比这是一个非常不同且有趣的角度。

研究设计方面,设计能与目的相匹配吗?有偏倚吗?如果用一个词来总结我的演讲,那就是“偏倚”。这里重复一个定义:因果推断(causal inference),它并不是评估两个变量之间的关联性,而是尝试判断这种关联是否具有因果关系。RCT中有治疗组A和治疗组B,两组间的区别就在于是否接受了特定的治疗。我们设定的事实(factual)(观察到的)是指:治疗或干预对这些患者的结局产生的影响;反事实(counterfactual)(未观察到的)是指:如果这些患者没有接受治疗或干预,他们的结局情况。RCT有对照组(反事实),RWD研究中往往不会以同样的方式设置一个对照组,因此我们需要思考如何评估“反事实”,如何真正区分出造成治疗效果差异的原因。在RCT中,我们可以推论因果关系,因为在不同的治疗组中,纳入人群特征是相似的,可以进行具有一致性、无偏倚的结局评估。而对于RWD分析来说,让这些偏倚或混杂因素最小化几乎是不可能的。因此,我们尝试在RWD数据分析中去模拟考虑这些因素,或可帮助我们理解如何进行研究设计以匹配研究目的。

目标试验模拟(target trial emulation)有这三个重点。首先是混杂因素。两组接受了不同的治疗,RCT中,两组患者的特征是相似的;而在RWD分析中,需要进行协变量(covariates)校正(例如:倾向性评分匹配)。正如之前提到的,我们只能校正已知的因素,那未知的因素呢?第二,是正值假设(positivity),RCT中的治疗分配是明确的,而在RWD中,各组中可能存在>0的概率是被分配的。第三是观测时间,人们会理所当然的知道RCT随机化开始的时间;但是在RWD中,我们能避免时间偏倚吗?时间偏倚是指从开始计算观测时间直至某受试者真正处于风险中的时间间隔。例如进行一个不良事件的分析,时间偏倚是指医生开出处方到病人实际开始服药之间的间隔。在RCT中,患者需要在随机分组的2天内服药,而在真实世界中我们可能不知道。再次回到倾向性评分匹配,有不同的方法来平衡各种因素。但需要记住的是,我们无法平衡未知的因素。我们知道偏倚的存在,并需要衡量这种偏倚能产生多大的影响。

举个例子,使用合成对照(synthetic control)或外部对照(external control)进行分析,这是一篇发表在Nature子刊上的文献,旨在评估pralsetinib在RET融合阳性NSCLC患者中的有效性。由于这一类型的患者数量非常少,约占NSCLC的2%,因此没有一个理想的对照组。研究者使用了Flatiron数据库来匹配,并进行定量偏倚分析(quantitative bias analyses。图中可以看到HR(hazard ratio)点,偏倚的存在可能会对结论产生多大的影响?红色区域代表影响较大,提示结论可能是相反的(conclusion reversed),而置信区间下限实际位于红色区域。根据PFS、OS等数据,该研究的结论是pralsetinib治疗可取得获益,但是RET融合阳性状态似乎并不具有预后预测作用。研究者也认为,考虑到患者人群数量较少,这也不是非常理想的数据来评估RET基因状态是否具有预后预测价值。有一个统计学术语说,尚缺乏有效性的证据≠证据显示无效(no evidence of effect ≠ evidence of no effect)。因此,RET融合阳性这个亚组患者的药物治疗有效性被证实了吗?我还不能完全确定。

0 (2).png

下一个是有关正值假设和观测时间的例子,研究者目的是评估在化疗前或化疗后联合内分泌治疗的有效性。左边这张图计算的是PFS1,最上面一行仅接受内分泌治疗作为一线方案,但首先化疗第一组的一线方案(注:第二行,化疗后给与内分泌治疗)其实是一线和二线治疗的混合,因此正值假设不成立。右边这张图计算的是PFS2,化疗后接受内分泌治疗组和单独使用内分泌治疗组的观测时间也存在混杂因素。

0 (4).png

我想用更积极的话题来结束这次演讲。我们最近成立了一个新的健康信息团队,成员均具有感染性疾病的工作背景。他们建立了数字算法,并在日常工作中进行测试,用常规医疗健康数据创建一个数字预警系统来预测患者是否会发展为败血症。研究分为两组:临床医生可见预警信息提醒,治疗决策将参考信息结果——干预组;系统在后台运行但是临床医生不可见——对照组。结果显示,使用预警系统可降低患者的死亡风险、缩短住院时间、更及时的接受抗生素治疗。这是利用RWD影响临床实践,这是RCT不能做到的。

0 (5).png

最后做一个总结,RWD研究不会取代RCTRWD研究能提供RCT不能带来的、实用性的信息。我们需要更好的进行RWD研究设计,解读RWD研究时也需要谨慎。



没有账号?